Apprentissage non-supervisé pour la segmentation automatique de textes

نویسندگان

  • Jean-François Pessiot
  • Marc Caillet
  • Massih-Reza Amini
  • Patrick Gallinari
چکیده

In this paper we introduce a machine learning approach for automatic text segmentation. Our text segmenter clusters text-segments containing similar concepts. It first discovers the different concepts present in a text, each concept being defined as a set of representative terms. After that the text is partitioned into coherent paragraphs using a hard clustering technique based on the Classification Maximum Likelihood approach. We evaluate the effectiveness of this technique on a set of concatenated paragraphs from the data collection and compare it to a well-established text segmentation technique proposed by Salton et al. MOTS-CLÉS : Segmentation de texte, Apprentissage non-supervisé, Partition de mots, Vraisemblance classifiante.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Pondération locale des variables en apprentissage numérique non-supervisé

Résumé. Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d’apprentissage non supervisé. Cette méthode se base sur l’algorithme « batch » des cartes auto-organisatrices. L’estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la car...

متن کامل

SLEMC : Apprentissage semi-supervisé enrichi par de multiples clusterings

Résumé. La tâche de classification supervisée consiste à induire un modèle de prédiction en utilisant un ensemble d’échantillons étiquetés. La précision du modèle augmente généralement avec le nombre d’échantillons disponibles. Au contraire, lorsque seuls quelques échantillons sont disponibles pour l’apprentissage, le modèle qui en résulte donne généralement des résultats médiocres. Malheureuse...

متن کامل

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

Segmentation des fichiers logs

Résumé. Avec la méthode de segmentation appelée passages de discours, la reconnaissance des divisions logiques de documents est essentielle. Cela s’avère plus difficile dans les documents ayant des unités logiques différentes de celles trouvées dans les textes classiques comme les paragraphes ou les sections. Ainsi, nous proposons une méthode automatique pour caractériser les unités logiques co...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004